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基于 双向 LSTM 和 GBDT 的 中 医 文 本 关系 抽取 模型 “ 
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JE 要 : 为 解决 采用 Softmax 作为 长 短期 记忆 网 络 分 类 器 导致 实体 关系 识别 模型 泛 化 能 力 不 足 ， 不 能 较 好 适用 中 医 实 
体 关 系 抽 取 等 问题 ， 提 出 一 种 融合 梯度 提升 树 的 双向 长 短期 记忆 网 络 的 关系 识别 算法 (BILSTM-GBDT)。 先 采用 
word2vec 对 中 医 文 本 进行 向 量化 表示 ， 再 利用 基于 注意 力 机 制 的 双向 长 短期 记忆 网 络 提取 高 阶 特征 ， 最 后 采用 集成 分 
类 模型 梯度 提升 树 作为 特征 分 类 器 ， 提 高 关系 识别 效果 。 在 中 医 等 多 个 关系 语料库 上 的 实验 结果 表明 ， 该 模型 与 传统 
SVM 方法 、GBDT 方法 及 其 深度 学 习 方 法 相 比 ， 均 有 更 高 的 精确 率 、 召 回 率 和 了 值 。 
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TCM text relationship extraction model based on bidirectional LSTM and GBDT 


Luo Jigen!, Du Jiangiang!, Nie Bin, Xiong Wangping, Liu Lei, He Jia 
(School of Computer Jiangxi University of Traditional Chinese Medicine, Nanchang 330004, China) 


Abstract: In order to solve the problem that the use of Softmax as a long-short-term memory network classifier leads to the lack 
co of generalization ability of the entity relationship recognition model, it is not suitable for the extraction of TCM entity 
relationships. This paper proposed a bidirectional long short-term memory (BILSTM) relational identification algorithm 
(BILSTM-GBDT) that incorporates a gradient boosting decision tree (GBDT) . Firstly, The Chinese medicine text vector is 


trained by word2vec, then the high-order features are extracted by the Bidirectional Long Short-Term Memory network based 


pe on the attention mechanism. Finally, the integrated classification model gradient lifting tree is used as the feature classifier to 


improve the relationship recognition effect. Experimental results on multiple relational corpora such as Chinese medicine show 


that the model has higher accuracy, recall and F value than traditional SVM method, GBDT method and deep learning method. 
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疡 阴阳 两 虚 证 。 对 于 上 面 句子 中 ， 在 关系 抽取 任务 中 ， 需 要 准 
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中 医 诊断 知识 是 中 华 民族 千 百 年 遗留 下 的 瑰宝 ， 对 中 医 临 。 之 间 的 语义 关系 ， 其 大 类 关系 为 “方药 ”， 小 类 关系 为 “组 成 ”， 
订 具 有 很 强 的 指导 作用 。 随 着 中 医 诊断 数据 的 不 断 增加 ， 语 名 ”实体 “ 补 天 大 造 九 "与 实体 “ 肺 疡 阴阳 两 虚 证 "是 “治疗 "关系 ， 实 


B 

达 形 式 上 具有 一 定 的 灵活 性 ， 实 体 关 系 也 随 之 变 得 复杂 。 中 ” 体 “ 肺 疡 阴阳 两 虚 证 ”与 实体 “ 脉 微细 而 数 ” 是 “ 脉 象 ”” 也 就 是 脉 
医 实体 关系 识别 0 史 是 中 医 领域 信息 抽取 站 的 一 部 分 ， 是 指 在 给 。 ”微细 而 数 是 疡 阴阳 两 虚 证 的 脉 象 ， 此 外 还 有 证 型 和 症状 ， 证 型 

实体 对 和 非 结 构 文 本 情况 下 , 识别 两 者 之 间 存 在 的 语义 关系 。 ”和 舌 像 的 关系 。 整 个 句子 的 关系 表现 形式 如 图 1 所 示 。 
例如 下 面 这 个 句子 包含 方剂 、 中 药 、 症 状 、 舌 像 、 脉 象 、 . 

证 型 等 多 类 实体 : IRREALA DANH. EER | ORAE 

药 组 成 ， 其 主治 为 咳 逆 嘴 息 少 气 ， 咯 痰 色白 有 沫 ， 血 色 上 暗淡 ， 关系 抽取 对 于 信息 检索 、 篇 章 理 解 、 知 识 图 谱 构 建 等 研究 
潮 热 ， 自 汗 ， 盗 汗 ， 声 呈 或 失 音 ， 面 浮 肢 有 种， 心慌 ， 层 紫 ,， 肢 00 都 具有 及 其 重要 的 研究 意义 。 目 前 较 流行 的 关系 抽取 方法 有 : 
冷 ， 形 寒 ， 口舌 生 麻 。 苔 黄 而 剥 ， 舌 质 光 淡 ， 脉 微细 而 数 的 肺 ” 基于 特征 工程 的 抽取 方法 、 基 于 核 函数 的 抽取 方法 和 基于 深度 
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是。 虽然 基于 特征 工程 的 关系 抽取 方法 在 一 


定 程 度 上 取得 了 不 错 的 效果 ， 但 是 由 于 句子 的 表达 形式 越 来 越 
复杂 ， 特 征 提 取 越 来 越 困 难 ， 导 致 基于 特征 的 关系 抽取 效果 很 
难 提升 。 基 于 核 函 数 多 的 关系 抽取 方法 不 同 于 特征 工程 ， 它 主 
要 考虑 的 是 句子 本 身 的 结构 信息 ， 不 需要 建立 高 维 的 数据 特征 
向 量 。 它 使 用 句法 结构 树 作 为 输入 对 象 ， 通 过 核 函 数 比较 语 料 


之 间 的 结构 相似 性 进行 关系 分 类 。 但 是 
在 人 们 无 法 识别 的 噪声 ， 
子 的 长 短 表达 能 力 不 一 样 导 致 基 了 
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特征 提取 后 采用 


础 模型 具有 低 方差 高 仿 
可 以 在 一 定 程度 上 解决 采用 Sofimax 作为 长 短 


差 等 优势 ， 


本 文 提出 一 种 融合 梯度 提升 
boosting decision tree，GBDT) 算 法 0 的 双向 长 短 
ory, BILSTM) 模型 。 其 中 
行 特征 提取 的 同时 , 加 入 Attention 机 
EAT, 解决 该 模型 容易 被 无 关 词 干扰 的 问题 。 
GBDT 对 关系 分 类 训练 预测 ， 


网 络 (deep recurrentneural networks, DRNNO 应 用 于 关系 
坚 析 树 的 方式 将 句子 分 成 两 个 部 分 ， 而 后 将 其 输 
PÆ. Zeng 等 人 (9 提出 一 种 融合 位 
神经 网 络 (convolutional neural networks，CNN) 的 关 
抽取 算法 , 为 有 效 缓解 长 距离 依赖 问题 , 该 算法 考虑 N-gram 
于 CNN 中 的 滤波 器 选择 不 能 太 大 ， 导 致 不 能 完 
Hochreiter 等 人 10 提出 的 一 
已 设置 了 三 种 门限 结构 ， 通 过 记忆 和 遗志 
PERK 


F GBDT 的 基 
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的 优势 被 更 


由 取 
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HESS E, Miwa 等 人 0 利用 LSTM 引入 
取 。 但 是 ， 以 上 模型 都 采用 了 Softmax 作 
为 分 类 器 ， 导 致 实体 关系 识别 模型 泛 化 能 力 不 足 局 
医 实体 关系 分 类 的 问题 。 
为 解决 上 述 问题 ， 


， 不 能 较 好 


HI (gradient 
期 记忆 网 络 
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使 得 集成 模型 更 具 稳 定性 ， 


器 导致 泛 化 能 力 不 足 的 问题 。 


期 记忆 网 络 分 类 


时 力 
多 的 上 下 文 信息 
处 理 ， 得 到 最 终 的 关系 类 别 。 该 模型 如 图 
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融合 GBDT 的 BILSTM 关系 抽取 


融合 GBDT 的 BILSTM 关系 抽取 模型 ， 采 
型 获取 前 后 两 个 方向 的 深层 隐 含 特征 ， 同 时 有 
学 习 方 法 中 长 距离 依赖 的 问题 。 同 时 
HA Attention 机 制 考虑 关键 字 词 对 特征 的 影响 , 从 而 获取 更 
; 然后 采 


Ss 
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两 个 部 分 : 
a) 加 入 Attention 机 制 的 BILSTM 特征 提取 。 将 训练 语 料 


c 
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] BILSTM 模 
效 解决 传统 深度 
在 利用 BILSTM 提取 特征 


库 的 词 向 量 输入 到 BILSTM 模型 中 , 采用 Attention JL 
力 概率 ， 对 BILSTM 模型 输入 的 关键 字 词 重要 性 分 析 ， 根 据 
FE 意 力 概 率 获取 BILSTM 模型 的 输出 特征 。 

b) 基于 GBDT 的 关系 分 类 。 将 BILSTM 模型 得 到 的 特征 
输入 到 GBDT 算法 中 ,不 断 迭 代 构 建 决策 树 ， 利用 上 次 模型 的 


i GBDT 算法 对 提取 的 特征 进行 分 类 
2 所 示 ， 其 主要 包括 
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计算 注 


负 梯 度 改进 模型 ， 在 残 差 减少 的 梯度 方向 上 建立 新 的 决策 树 。 
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图 2 融合 GBDT 的 BILSTM 关系 抽取 模型 
1 基于 注意 力 机 制 的 BILSTM 特征 提取 


于 LSTM 不 能 直接 处 理 文本 数据 ， 需 先 利 用 


Google 的 


开源 工具 Word2vec 将 文本 转换 成 字 向 量 。 假 设 输入 的 句子 为 
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中 第 7 个 字 的 字 向 量 为 ，w' e R4 ERP g 


ES WW, W, Wz,- W) > m 为 句子 长 度 ， 其 


则 输入 文本 表示 为 


LSTM 神经 网 络 是 一 种 特殊 的 RNN, 其 思想 是 用 LSTM A 


S= 


元 去 蔡 代 RNN 中 隐 含 


(Input gate )， 输 


出 门 《 


个 门 组 成 ,由 于 LSTM 


一 定 程度 


句 量 的 维度 ， 


a) 


* * * Txd 
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层 的 神经 单元 。LSTM 单元 是 由 输入 门 


上 解决 长 距离 


9, 


Output gate) 和 遗忘 门 (Forget gate) = 
的 特殊 结构 ， 让 LSTM 神经 网 络 可 以 在 
依赖 问题 。 
在 1 时刻 ，LSTM 各 单元 组 成 部 分 的 更 新 情况 如 下 所 示 。 
f, * o(W, -[h, x] e b,) Q) 
i, - o(W, -[h, x] - b) 3) 
č —tanh(W. -[A, ,,x,] - b.) (4) 
c, —f, oc, 49i, 9C, (5) 
=0(W, -[A, ,, x, ]+b,) (6) 
h, — o, o tanh(c,) (7) 


其 中 : o 表示 sigmoid 激活 函数 ，。 是 元 素 乘 ，x 为 时刻 LSTM 
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的 输入 向 量 ，h [ORE T RERS, Wo. Wo Wo W, 分别 代表 
了 遗忘 门 ， 输 入 门 ， 记 忆 单 元 ， 输 出 门 的 权 值 矩阵 。b, ，b,， 
b,» b, 分 别 代表 了 遗忘 门 , 输入 门 , 记忆 单元 , 输出 门 的 偏 置 。 
fo i，c，0, 表 示 遗 忘 门 , 输入 门 , 记忆 单元 状态 和 输出 门 。 
为 充分 利用 上 下 文 信息 ， 挖 掘 更 多 的 隐 含 特征 ， 有 效 解决 
关系 抽取 问题 ， 本 文 设计 双向 LSTM 神经 网 络 ， 该 方法 是 由 两 
个 相反 方向 的 LSTM 神经 网 络 组 成 ， 其 模型 结构 如 图 1 中 
BILSTM layer 部 分 所 示 ， 其 中 及 是 前 向 LSTM 神经 网 络 在 1 时 
刻 的 输出 ， 是 后 向 LSTM 单元 在 时 刻 1 的 输出 ， 所 以 时 刻 f 
的 输出 为 前 向 后 向 的 拼接 ， 即 有 =i, h] e 
于 每 个 字 词 对 句子 所 属 类 别 的 贡献 能 力 不 同 ， 利 用 
Attention 机 制 05 的 思想 对 句子 进行 更 深 的 特征 提取 ,提高 关系 
分 类 精确 率 。 例如 在 句子 “现代 研究 : 许 氏 报 告 用 通 脉 四 逆 汤 加 
味 治疗 少 阴 格 阳 证 16 例 ， 全 部 治愈 "中 ， 普 通 的 BILSTM 神经 
网 络 对 句子 中 的 每 一 个 词 都 是 同等 对 待 的 , 引入 Attention WLA 
后 ， 模 型 通过 注意 力 权 值 分 配 ， 重 点 关注 “治疗 ”这 个 关键 词 。 
图 2 中 Attention layer 所 示 为 在 BISLTM 模型 后 接 入 Attention 
机 制 的 结构 示意 图 。 经 过 Attention 层 得 到 的 全 局 输出 向 量 为 
万 ， 则 相关 计算 如 下 : 
u, — tanh(w,h, +b,) (8) 


a, = softmax(u] uu) 9) 
H- ah 


其 中 :uw 是 及 的 隐藏 单元 ，w, 为 句子 的 上 下 文 向 量 ，&a 为 注意 
JAE, h 为 BILSTM 的 输出 向 量 , (BU S Lp h] w> b, 
为 注意 力 权重 值 和 偏 置 ， 随 机 初始 化 并 在 训练 中 不 断 学 习 。 
2.2 基于 GBDT 的 关系 分 类 

关系 抽取 可 以 看 成 是 多 分 类 问题 ， 黄 雨 洁 等 人 09 提 出 将 
GBDT 用 于 微 博 立场 检测 当中 ， 通 过 对 语料库 手动 提取 特征 ， 
完成 文本 分 类 。 段 大 高 等 人 07 提 出 一 种 基于 GBDT 的 虚假 消息 
检测 方法 ， 通 过 提出 评论 中 文本 内 容 、 用 户 属性 ， 信 息 传 播 和 
时 间 等 特征 , 利用 GBDT 实现 分 类 。GBDT 是 一 种 集成 学 习 器 ， 
采用 Boosting 的 思想 , 构造 y 个 弱 学 习 器 ,经 过 多 次 迭代 形成 
最 终 强 学 习 器 。 它 采用 的 弱 学 习 器 为 CART 回归 树 ， 每 一 次 迭 
代 都 是 为 了 减少 上 一 个 模型 的 残 差 ， 并 在 残 差 减少 的 梯度 上 训 
练 建立 新 的 模型 。 
Attention 机 制 的 BILSTM 模型 得 到 的 特征 和 原始 类 别 
标 Z 形 成 BT 训练 RAR 
T = (03.3, O 33,05. 3,05, y,)) RP x, 为 语料库 中 第 i 
个 句子 在 模型 提取 的 特征 向 量 。 y 的 取 值 为 关系 类 别 。 假 设 
GBDT 损失 函数 为 L(y,f)， 则 其 表达 式 为 


za 
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Ly f) - 3 Ls, fo) ai) 
第 ; 轮 的 第 ;个 样本 的 损失 函数 的 负 梯度 表示 为 
-| (12) 
Of (x) f(x)=fa tx) 
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AH xr) TAWE — H CART 回归 树 , 得 到 了 第 j 棵 决策 


树 ， 其 对 应 的 叶 节点 区 域 。 其 中 7 为 叶子 节点 的 个 数 。 


针对 每 


个 叶子 节点 里 的 样本 ， 求 出 使 损失 函数 最 小 ， 也 


就 是 拟 合 叶 子 节 点 最 好 的 输出 值 c, 如 下 : 


cy ELI Ly, fax) +c) a3) 
得 到 本 轮 的 决策 树 拟 合 函数 为 
h(x) -Ëc,I(xeR,) (14) 
本 轮 的 最 终 强 学 习 模型 的 表达 式 如 下 : 
fo f Q0 Xe Ix e R) 5) 


2.3 


融合 GBDT 的 BILSTM 关系 抽取 模型 


在 实现 实体 关系 抽取 时 ， 利 用 基于 Attention 机 制 的 
BILSTM 抽取 文本 特征 向 量 ， 得 到 特征 组 合 v ， 之 后 采用 梯度 


提升 树 对 特征 组 合 进行 分 类 训练 和 预测 ， 


得 到 最 终 每 个 句子 的 


关系 类 别 。BILSTM-GBDT 的 优点 在 于 可 以 在 一 定 程度 上 解决 


传统 深度 学 习 方法 在 处 理 > 


关系 抽取 时 出 现 的 泛 化 能 力 不 强 的 问 


题 ， 同 时 提高 关系 
BILSTM-GBDT 的 


a) f| Fl wo 


由 取 的 精确 率 。 
L 体 算法 流程 如 下 : 
rd2vec 对 训练 集 样本 进行 Embedding 操作 , 则 每 


个 输入 句子 的 向 量 和 矩阵 为 ，S=[ wwiswi,...,w |]; 
b) 将 Se[wi wj wi. wj, | 矩阵 输入 到 BILSTM 模型 中 ， 计 


算 ! 时 刻 的 正 向 输出 六 ， 逆 向 输出 为 i ，BILSTM 层 的 输出 特 


IEN h, [RÀ]: 


9 初始 化 Attention 层 中 各 节点 的 注意 力 权 值 , 通过 式 (9) 


得 到 注意 力 概率 a l 


qd) 利用 


Y (ys Y» Yz» 


Attention 


R (00 计算 得 到 最 终 答 出 特征 万 : 
层 输 出 H = {hh hs.. h,) 和 类 别 标签 
.,y，} 构建 梯度 提升 树 。 此 时 假设 GBDT 损失 函 


HUS LG. f) =Ë LOSE): 


e) 98 t 轮 的 第 ; 个 样本 的 损失 函数 的 负 梯度 表示 为 ; 
. mene 
” F=f 


f Gx) 


) 8 &n-w 


点 输出 值 ce 如 下 : 


tj 


c, — argmin £ LCy,, fax) * e) 


x; eR, 


四 决策 树 拟 合 函数 为 有 CD = Ye Ice R) ， 经 过 m 次 选 代 
"n 


形成 的 集成 学 习 模型 为 FG) = f, (Q0 0s 
ja 


h) 通 过 模 


7(X E Rj) o 


J 


型 迭代 训练 得 到 最 终 关 系 类 别 。 
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iW 型 


表 3 BILSTM-GBDT 模型 实验 结果 


3 实验 


关系 类 别 P(96) R(96) F(96) 
31 实验 设置 方药 93.25 92.53 92.88 
为 验证 本 文 提 出 的 BILSTM-GBDT 实 体 关 系 抽取 算法 的 有 药 症 86.53 85.21 85.86 
效 性 , 使 用 整理 后 的 中 医 关系 语料库 (TCM RECoupus) 对 模型 药 证 85.12 86.74 85.92 
进行 验证 。 中 医 关系 语料库 的 来 源 包含 了 中 医 古籍 文本 、 教 学 方 证 92.41 93.85 93.12 
书籍 、 中 医科 研 论 文 ， 在 构建 中 医 关系 语料库 时 ， 先 从 标注 文 方 症 83.96 81.23 82.57 
档 中 抽取 出 所 需 实体 对 ， 然 后 对 文档 进行 断 句 处 理 ， 最 后 形成 方 病 81.29 82.56 81.92 
的 语料库 一 共 为 26855 个 句子 , 包含 11 个 类 别 。 另外 为 验证 本 病症 88.20 87.06 87.62 
文 提 出 改进 算法 的 性 能 ， 本 文 除 了 使 用 中 医 关系 语料库 ， 还 在 证 症 91.22 89.38 90.29 
SemEval-2010 和 ACL2007 关系 语料库 上 进行 了 对 比 实验 。 三 药 症 84.23 82.71 83.46 
组 语料库 详细 情况 如 表 1 所 示 。 TE 90.36 89.27 89.81 
Al 三 种 语料库 信息 脉 证 91.28 92.06 91.67 
TCM RECoupus SemEval-2010 ACL2007 所 有 87.98 87.51 87.74 
关系 数量 关系 数量 关系 数量 由 表 3 可知， 对 于 自 定义 的 11 种 中 医 关 系 ， 其 中 方药 、 方 
方药 3850 其 他 1864 ”制造 使 用 1440 证 、 证 症 、 脉 证 四 类 关系 的 精确 率 、 召 回 率 和 下 值 达到 90% 以 
药 症 2982 AR 1331 类 属 1776 上 。 这 是 因为 中 医 在 这 四 类 关系 上 表达 ， 形 式 简单 ， 实 体形 式 
药 证 1839 ”整体 与 部 分 “ 1253 转 喻 470 固定 ， 语 料 占 比 相对 其 他 关系 较 大 ， 所 以 效果 明显 优 于 其 他 类 
方 证 3642 ”实体 与 目标 1137 组 织 从 属 2460 关系 的 实验 效果 。 
方 症 2869 实体 与 来 源 974 局 部 整体 981 为 验证 本 文 提 出 改进 算法 的 性 能 ， 同 时 引入 四 种 目前 流行 
方 病 1683 ”生产 者 产品 948 人 物 3116 的 关系 抽取 算法 ， 分 别 为 支持 向 量 机 (SVM )、 梯 度 提升 树 
病症 。 2258 会员 与 组 织 923 地 理 位 置 。 ”2157 (GBDT)、 深 度 学 习 方 法 BILSTM、 融 入 注意 力 机 制 的 BILSTM 
证 症 2754 ”实体 与 主题 。 895 - - 模型 (BILSTM-ATT), 这 两 类 深度 学 习 关 系 抽取 模型 都 是 在 提 
药 症 215 ”内 容 与 包含 732 - - 取 特 征 后 采用 Softmax 进行 关系 分 类 。 对 比 实验 结果 如 表 4 和 
TuE 2863 ”工具 使 用 者 。 660 - - 图 3 所 示 。 表 4 五 种 关系 模型 实验 对 比 
脉 证 2651 - - - - TCM RECoupus (%) SemEval-2010 ACL2007 
本 文通 过 将 语料库 按照 每 种 关系 的 7:3 方式 划分 模型 的 训 方法 P R F P R F P R F 
练 集 和 测试 集 。 在 BILSTM 参数 设置 见 表 2 所 示 , 其 中 Droponut、 GBDT 7921 78.63 7892 79.53 8121 8036 7833 79.61 7896 
学 习 率 和 优化 器 等 参数 通过 多 组 实验 对 比 得 出 。 SVM 75.68 7857 7707 7892 7934 7913 77.63 7697 7129 
表 2 LSTM 神经 网 络 参数 设置 BILSTM 83.78 82.35 83.06 81.66 82.62 8214 82.35 8274 8254 
超 参 数 调 参 值 BILSTM- 
85.82 85.44 85.63 84.00 8325 83.67 8467 8414 8440 
learning rate 0.001 ATT 
dropout 0.5 BILSTM- 
87.98 87.51 87.74 86.13 85.52 85.82 85.85 8628 86.06 
gradient clipping 5.0 GBDT 
embedding-dim 300 


optimizer Adam 85 

batch-size 64 80 ul I] 

hidden-dim 300 要 li I | li 
30 P | | 


epoch 
语料库 ”SemEval-2010 ACL2007 


为 体现 本 文 提出 的 模型 优势 , 采用 准确 率 (P)、 召 回 率 (R)、 
F 值 作为 模型 评价 准则 。 yii SS 
BBILSTM-ATT BBILSTM-GBDT 
3.2 ”实验 结果 
利用 中 医 实体 关系 语料库 的 训练 集 数据 进行 模型 训练 ， 用 图 3 各 组 数据 实验 结果 下 值 对 比 
测试 集 数据 进行 BILSTM-GBDT 模型 评测 ， 得 到 11 类 关系 的 结合 表 4 和 图 3 的 实验 结果 ， 在 中 医 关系 语料库 上 集成 算 
精确 率 、 召 回 率 和 五 值 如 表 3 所 示 。 法 GBDT HHZ, BERA F {ELAT SVM, TILER 


学 习 算法 相对 传统 机 器 学 习 算 法 增强 了 模型 抗 干扰 能 力 ， 增 强 
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ina 


ch 


了 模型 的 泛 化 能 力 。 但 


的 基础 上 


力 机 制 的 


曾 加 了 注意 力 机 
ATT 模型 的 尸 值 相 比 BILSTM 
原因 ， 它 为 每 个 输入 


D 
综合 


来 看 ，BILSTM 比 GBDT 算法 在 F 
值 高 出 4.14%， 说 明 BILSTM 自动 提取 的 句子 深层 特征 有 利用 
可 以 得 到 更 好 的 实验 结果 。BILSTM-ATT 在 BILSTM 


ill, 


实验 结果 可 以 看 出 ，BILSTM- 


的 字 向 量 


高 出 了 2.17%, 正 是 加 入 了 注意 
提供 权 值 ， 句 子 最 终 的 


pii 


特征 通过 此 权重 加 权 之 后 的 整合 ， 可 以 减少 句子 中 噪声 词 的 影 


响 。 BILSTM-GBDT 是 在 引 
作为 模型 

五 种 算法 在 SemEval-2010 
3。 由 实验 结果 数 
ZM F (B ETKI 


PS 


类 上 的 
最 高 的 ， 
根据 表 4 和 图 


5 RT 知 ， 


EX EE GBDT 在 精确 率 、 妊 


入 注意 力 机 制 的 情况 下 ,采用 GBDT 
的 分 类 器 ,在 F 值 上 相对 BILSTM-ATT 提高 了 2.11%。 


语料库 上 的 实验 结果 见 表 4 和 


FH 
IN 


Chingxiv& fF RAFI 


罗 计 根 ， 等 : 基于 双向 LSTM 4» GBDT & 文本 关系 抽取 模型 


趋 于 稳定 。 在 三 个 语料库 上 的 实验 效果 表明 , BILSTM-GBDT 


较 BILSTM-ATT 有 明显 的 优势 , 在 三 个 语料库 上 的 综合 表现 书 
值 分 别提 高 了 2.11%、2.25%、1.66%， 实 验 结果 验证 了 该 方法 


在 解决 以 Softmax 作为 分 类 器 带 来 的 泛 化 能 力 不 强 问题 上 的 有 
效 性 。 
4 ”结束 语 


用 Softmax 作为 长 短 


期 记忆 网 


本 文 针 对 关系 抽取 任务 上 采 


络 分 类 器 导致 模型 泛 化 能 力 不 足 ， 不 能 较 好 适应 中 医 实体 关系 


分 类 的 问题 ， 提 出 了 一 种 融合 梯度 提升 树 算 法 的 双向 长 短期 记 
| 


n 


忆 模 型 ， 充 分 在 不 


d 
结合 


L3, 


双向 LSTM 自动 提取 特征 的 


TE FEMA 


超过 了 SVM, TIL GBDT 集成 算法 在 关系 分 
多 势 。BILSTM-GBDT 在 三 个 评价 指标 相对 其 他 算法 都 
E 上 高 出 BILSTM-ATT 模型 2.25%。 


3 中 五 种 算法 在 ACL2007 语料库 上 的 实验 


结果 可 知 ， E 


EV 


ya 


作为 分 类 器 


成 算法 


GBDT 相对 SVM 来 说 ， 在 三 个 评测 标准 
很 大 的 优势 。BILSTM-GBDT 相对 其 他 两 种 以 Softmax 
有 很 大 的 优势 ， 
BILSTM-GBDT 达到 86.06%， 高 出 BILSTM-ATT 模型 
为 探究 梯度 提升 树 构建 棵 数 m 值 和 模型 效果 


的 模型 来 说 


Attention 机 制 抓 
词 干扰 的 问题 ， 最 后 利用 
型 的 鲁 棒 性 和 泛 


型 


取 关 键 字 词 对 句子 理解 ， 解 决 模型 容易 被 无 关 
GBDT 低 方差 高 偏差 的 优势 ， 增 强 模 
化 性 。 通 过 对 中 医 关 系 语 料 库 和 其 他 两 个 公开 


领 


f 


或 语料库 实验 的 比较 ， 证 明 本 文 提 出 的 改进 模型 在 准确 率 、 


n 


在 下 值 评测 上 ， 
1.6695. 
的 问题 ， 本 文 在 三 


个 关系 语料库 上 做 了 相关 实验 ， 实 验 结果 如 图 4 所 示 ， 图 中 决 
策 树 的 数目 呈 10 的 倍数 递增 ， 共 计 10 次 。 
0.9 
085 = q "9 = 0-99 
0.8 DUE 
gg. 
0.75 Edo: 
g 
07 —:» 
0.65 v. 
0.6 g 
0.55 
10 20 30 140 50 60 70 80 90 100 
re ©- TCM RECoupus 7809s SemEval-2010 
ACL2007 
图 4 ”模型 效果 随 m 值 变化 
图 4 可 知 ,初始 时 随 着 决策 树 数目 m 的 值 增加 ,BILSTM- 


GBDT 模型 在 三 个 语料库 上 的 下 


值 均 呈 现 上 升 的 趋势 ， 当 梯度 


提升 树 构建 到 60 棵 的 时 候 , 此 时 模型 效果 达到 最 优 , 之 后 三 个 


甚至 会 出 现 一 定 程度 上 的 下 降 。 
融合 注意 力 机 制 的 双向 长 


语料库 上 的 F 值 基本 趋 于 稳定 , 甚至 
综 上 所 述 ，BILSTM-GBDT 利 | 
短期 记忆 网 络 充分 提取 句子 特征 , 使 用 集成 学 习 GBDT 作为 分 


类 器 ， 在 一 定 程度 上 解决 了 传统 以 Softmax | 


模型 泛 化 能 力 不 强 的 问题 ， 使 实验 结果 更 加 稳定 。 相 比 来 说 ， 


j 作 分 类 器 带 来 的 


SVM 算法 实验 效果 最 差 ， 使 用 GBDT 这 种 集成 学 习 算法 使 得 


模型 更 加 稳定 ， 泛 


86 7103.5 


1 加 强 。 


Eu 
于 人 工 提取 的 特 


但 是 


使 GBDT JR BILSTM-GBDT 的 实验 结果 还 是 有 一 定 差距 。 


BILSTM-GBDT 7 


阶 特 和 


E RENHA 


人 


E 利 用 融合 注意 力 机 制 的 BILSTM 模型 提取 高 
成 学 习 GBDT 迭代 形成 多 棵 决策 树 ， 增 强 


了 模型 泛 化 能 力 ， 当 梯度 提升 树 构建 到 60 棵 的 时 候 模型 的 效 


关系 抽取 模型 。 
义 好 的 关系 ， 在 接 下 来 的 工作 中 ， 将 进 
抽取 ， 以 及 如 何 将 其 


率 和 了 值 上 均 有 明显 提高 ， 是 一 种 适合 于 中 医 特定 领域 的 
但 是 改进 算法 仍 有 不 足 之 处 ， 只 能 抽取 预先 定 
步 研 究 对 于 新 关系 的 


扩展 到 其 他 领域 中 。 
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